1 概述

Logistic Regression是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户够买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性。注意：这里的可能性并非数学上的概率，不可以当作概率值来用，但是可能同概率作映射。

2 适用性

2.1 可用于概率预测，也可用于分类

并不是所有的机器学习方法都可以做可能性概率预测（比如SVM就不行，它只能得到1或者-1）。可能性预测的好处是结果有可比性：比如我们得到不同广告被点击的可能性后，就可以展现点击可能性最大的N个。这样一来，哪怕得到的可能性都很高，或者可能性都很低，我们都能去最优的top N。当用于分类问题时，仅需要设定一个阈值，可能性高于阈值是一类，低于阈值是另一类。

2.2 仅能用于线性问题

只有在feature和target是线性关系时，才能用LR（不像SVM那样可以做非线性问题）。这有两点指导意义：一方面当预先知道模型非线性时，果断不能用LR，另一方面，在使用LR时注意选择和target呈线性关系的feature。

2.3 各feature之间不需要满足条件独立假设，但各个feature的贡献是独立计算的

LR不像朴素贝叶斯一样需要满足条件独立假设，但每个feature的贡献是独立计算的，即LR是不会自动combine不同的feature产生新的feature的。举个例子，如果你需要TFIDF这样的feature，就必须明确的给出来，若仅仅分别给出两维TF和IDF是不够的，那样只会得到类似aTF+bIDF的结果，而不会有cTF*IDF的效果。